
Label Powerset(라벨 파워셋)은 다중 레이블 분류(multi-label classification)를 다중 클래스 분류(multi-class classification) 문제로 변환하는 기법입니다. 주요 아이디어와 특성은 다음과 같습니다. - 기본 개념 - 각 샘플의 라벨 집합(예: {A, B})을 하나의 고유한 클래스 레이블로 취급합니다. - 학습 시 관찰된 모든 서로 다른 라벨 조합을 각각 하나의 클래스(파워셋)로 매핑하여 단일 다중 클래스 분류기를 학습합니다. - 예측 시 분류기가 예측한 클래스에 대응하는 라벨 집합을 출력합니다. - 장점 - 라벨 간의 상관관계(공동출현 패턴)를 자연스럽게 모델링합니다. 독립적으로 예측하는 방식보다 상호관계를 반영할 수 있습니다. - 구현이 직관적이고 단일 분류기만 사용하면 됨. - 단점 - 클래스 수 폭발: 라벨 수 L에 대해 이론적으로 최대 2^L개의 라벨 조합이 존재하므로 클래스 수가 매우 커질 수 있습니다. - 데이터 희소성: 실제로 관찰되는 조합도 많지 않거나 각 조합의 샘플 수가 적어 일반화가 어려움. - 미관찰 조합 예측 불가: 학습에 등장하지 않은 라벨 조합은 기본 LP 모델로는 예측할 수 없음. - 계산·메모리 비용이 커질 수 있음. - 실무적 대응 및 변형 - 관찰된 조합만 클래스화하여 현실적인 클래스 수로 제한하는 경우가 흔함. - 다수의 라벨과 드문 조합이 있는 경우에는 LP 대신 Binary Relevance(BR)나 Classifier Chains(CC), 라벨 임베딩/차원 축소 기술을 사용하거나, LP의 앙상블(RAkEL 등) 같은 변형을 사용해 성능·확장성을 개선함. - 라벨 공간 축소, 빈도 기반 필터링, 계층적 라벨링 등으로 조합 수를 제어할 수 있음. - 언제 사용하면 좋은가 - 라벨 수가 적고(또는 가능한 라벨 조합 수가 제한적이고) 라벨 간 상관관계를 강하게 반영하고자 할 때 적합합니다. - 반대로 라벨 수가 많거나 조합이 희소하게 분포되어 있을 때는 부적합할 수 있습니다. 요약하면, Label Powerset은 각 라벨의 조합을 하나의 클래스처럼 취급하여 라벨 간 상관관계를 포착하는 변환 기법이지만, 라벨 수와 조합 수가 커지면 확장성·일반화 문제를 야기할 수 있습니다.